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融合 语言 特征 的 抽象 式 中 文摘 要 模型 


胡 德 敏 ， 王 荣 荣 
(上 海 理 工大 学 光电 信息 与 计算 机 工程 学 院 ， 上 海 200093) 


摘 要 : 为 了 解决 传统 抽象 式 摘要 模型 生成 的 中 文摘 要 难以 保存 原文 本 语义 信息 的 问题 ， 提 出 了 一 种 融合 语言 特征 
的 抽象 式 中 文摘 要 模型 。 模 型 中 添加 了 拼接 层 ， 将 词性 、 命 名 实体 、 词 汇 位 置 、TF-IDF 等 特征 拼接 到 词 向 量 上 ,使 
输入 模型 的 词 向 量 包 含 更 多 的 维度 的 语义 信息 来 确定 关键 实体 。 结 合 指 针 机 制 有 选择 地 复制 原文 中 的 关键 词 到 摘要 
中 ， 从 而 提高 生成 的 摘要 的 语义 相关 性 。 使 用 LCSTS 新 闻 数 据 集 进行 实验 ， 取 得 了 高 于 基线 模型 的 ROUGE 得 分 。 
分 析 表 明 本 模型 能 够 生成 语义 相关 度 较 高 的 中 文摘 要 。 

关键 词 : 抽象 式 摘 要 模型 ; 语言 特征 ; 关键 实体 ; 词 向 量 
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Abstractive Chinese summarization model with linguistic features 


Hu Demin, Wang Rongrong 
(School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & Technology, Shanghai 200093, 
China) 


Abstract: In order to solve the problem that the Chinese summarization generated by traditional abstractive models can 
hardly preserve the semantic information of the original text, this paper proposed an abstractive Chinese summarization 
model with linguistic features. A connection layer is added to the model, and features such as part of speech, named entity, 
word position, and TF-IDF are spliced into the word vector, so that the word vector of the input model contains more 
semantic information to determine the key entity. The pointer mechanism allows model selectively copy the keywords in 
source text into the summarization to improve the semantic relevance between source text and summarization. Evaluates 
this model on LCSTS dataset, and obtains a higher ROUGE score than the baseline model. The analysis shows that the 
model can generate Chinese summarization with higher semantic relevance. 


Key words: abstractive summarization model; linguistic features; key entities; word vector 
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0 ajs 生 较 低 ， 往 往 存 在 语法 和 语义 错误 。 
为 了 提高 抽象 式 摘要 与 原文 本 的 相关 度 ， 本 文 提 出 了 一 

生成 简洁 凝练 ， 语 义 连 贯 ， 保 留 关键 信息 的 总 结 是 自动 种 融合 语言 特征 的 抽象 式 摘要 模型 〈 简 称 LF_model)。 本 文 
文本 摘要 的 最 终 目标 。 根 据 对 信息 的 抽取 方式 的 不 同 ， 可 将 认为 抓 住 原文 中 的 关键 实体 可 以 使 摘要 更 加 贴近 文章 的 主 
文本 自动 摘要 技术 主要 分 为 两 大 类 : 抽取 式 文本 摘要 生成 方 题 ， 考 虑 了 输入 模型 的 词汇 的 语言 特征 对 摘要 质量 的 影响 ， 
式 和 抽象 式 文本 摘要 生成 方式 止 。 目 前 的 中 文摘 要 研究 大 多 将 原文 本 的 词性 标注 , 命名 实体 ， 词 汇 位 置 ，TF-IDF 等 特征 
使 用 抽取 式 方法 ， 根 据 语言 特征 计算 句子 权重 ， 复 制 比较 重 向 量化 后 与 原始 词 向 量 拼接 在 一 起 构建 输入 模型 的 词 向 量 ， 
要 的 句子 组 成 摘要 ， 但 这 种 方法 没有 考虑 句子 间 的 连贯 性 ， 使 输入 模型 的 向 量 有 更 多 维度 的 含义 来 抓 取 原 文中 的 关键 实 
不 能 完整 的 表达 文章 的 含义 ; 抽象 式 文本 摘要 生成 方法 应 用 本。 考虑 到 未 登录 词 大 多 是 原文 本 中 的 命名 实体 , 解决 OOV 
神经 网 络 模型 ， 通 过 对 大 量 的 数据 进行 训练 ， 生 成 深入 理解 (out of vocabulary) 问题 有 助 于 模型 输出 原文 中 的 关键 实 
原文 的 新 句子 。 体 , 本 模型 结合 Gulcehre 等 人 四 提出 的 Pointer 机 制 选择 性 地 

与 抽取 式 方法 提取 原文 的 句子 作为 摘要 不 同 的 是 ， 抽 象 复制 原文 的 词汇 到 摘要 中 ， 从 而 生成 与 原文 本 语义 相关 度 高 
式 摘要 方法 不 是 简单 地 从 原文 中 提取 的 一 些 现 有 的 段落 或 句 的 摘要 。 使 用 LCSTS 新 闻 数 据 集 来 训练 模型 , 并 将 生成 的 搞 
子 ， 而 是 对 文档 的 主要 内 容 进 行 了 压缩 解释 ， 重 新 措 评 ， 使 要 的 评价 得 分 同 基 线 模型 进行 了 对 比 ， 取 得 了 比 基 线 模型 表 
用 了 原文 档 中 未 现 的 词汇 来 生成 摘要 。 抽 象 式 方法 生成 的 摘 见 更 好 的 实验 结果 。 
要 更 接近 于 人 工 生 成 的 摘要 。Sutskever 等 人 争 提 出 的 
sequence-to-sequence 模型 (简称 seq2seq) 和 Bahdanau 等 人 1 相关 工作 
9 提出 的 Attention 机 制 ， 推 动 了 抽象 式 自动 摘要 的 发 展 。 但 当前 采用 抽取 式 方法 生成 摘要 的 技术 相对 比较 成 熟 ， 中 
Hl 象 式 摘要 方法 仍 处 于 早期 阶段 , 存在 一 定 的 局 限 性 ,比如 ， 文摘 要 的 研究 大 多 采用 抽取 式 的 方法 ， 根 据 句 子 的 各 种 文本 
依赖 大 规模 、 高 质量 的 训练 集 来 训练 模型 ， 适 用 于 短文 本 摘 特征 ,例如 句子 长 度 、 句子 位 置 、 句 子 与 文章 标题 的 相似 度 、 
要 生成 ， 在 长 文本 上 的 摘要 效果 较 差 ， 生 成 的 摘要 语义 相关 语言 规则 等 来 计算 句子 权重 ,根据 句子 的 总 权重 给 句子 排序 ， 
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录用 定稿 胡 德 教 ， 等 ; 融合 语言 特征 的 抽象 式 中 文摘 要 模型 第 37 卷 第 3 其 
选取 权重 高 的 句子 作为 摘要 句 。 关系 和 化 解 自 然 语言 中 一 词 多 义 的 问题 ， 对 语义 理解 具有 重 


Rush 等 人 名 第 一 次 使 用 Seq2Seq+Attention 模型 进行 名 — 要 的 作用 。 研 究 发现 ， 在 摘要 任务 中 名 词 和 动词 相对 于 其 他 
子 摘要 任务 ， 其 中 Seq2Seq 模型 也 称 为 Encoder-Decoder f 词性 的 词汇 往往 更 能 体现 原文 的 关键 信息 。 因 此 本 文 对 训练 
， 使 用 一 个 循环 神经 网 络 作为 编码 器 读 取 输入 的 句子 , 将 。 集中 的 词汇 进行 词性 标注 ， 将 词性 进行 Embedding 表示 后 与 
整个 句子 的 信息 压缩 到 一 个 连续 的 中 间 语 义 向 量 中 。 再 使 用 词 向 量 拼 接 ， 使 词汇 的 词 向 量 包含 词性 特征 。 
兄 一 个 循环 神经 网 络 作 为 解码 器 读 取 这 个 中 同 语义 向 量 ， 将 原文 ， 昨 晚 ， 中 联 航空 成 都 飞 北京 一 架 航 班 被 
其 解压 为 目标 语言 的 一 个 句子 61。Attention 机 制 ， 使 模型 在 发 现 有 多 人 吸烟 。 后 因 天 气 原因 ,飞机 各 降 太 
输出 端的 某 个 节点 将 注意 力 集中 在 输入 部 分 的 某 一 个 特定 部 原 机 场 。 几 名 乘客 在 舱 门 边 吸烟 被 发 现 . HR 
分 ， 而 不 是 如 以 往 的 工作 将 输入 部 分 作为 一 个 整体 均等 的 送 客 要 求 重新 安检 , 机 长 决定 继续 飞行 ,引起 机 
Aj A " E |5e ZR ; 
AR — ^is HRS O1, EF BERE RP PAL HP BI fed e Ze n fe a A 组 人 员 与 未 吸烟 乘客 冲突 ,日 前 中 联 航空 正 联 
最 后 生成 的 序列 的 。 且 作者 提出 了 利用 Gigaword 构建 大 量 平 系 机 组 进行 核实 
行 句 对 的 方法 ， 使 得 利用 神经 网 络 训练 成 为 可 能 ， 但 该 模型 
更 适用 于 为 一 个 句子 生成 摘要 。Lopyrev 等 人 中 描述 了 一 个 使 
用 LSTM (Long Short-Term Memory) 作为 循环 神经 网 络 计 
算 单 元 ， 联 合 注 意 力 机 制 来 生成 新 闻 摘 要 的 应 用 ， 但 未 处 理 
OOV (Out of vocabulary) 问题 。 为 了 处 理 OOV 问题 ，Gu 
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人 工 摘要 : 成 都 飞 北京 航班 多 人 吸烟 机 组 人 员 
与 未 吸烟 乘客 冲突 。 
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RNN: 中 联 航空 机 场 发 生 爆 炸 致 多 人 死亡 。 


等 人 名 提出 了 一 种 合并 复制 机 制 ， 人 允许 一 部 分 摘要 复制 原文 

中 的 内 容 。Nallapati 等 人 外 研究 了 关键 词 对 于 自动 文摘 所 起 J1 一 个 用 RNN 生成 的 低语 义 相关 的 摘要 实例 。 

到 的 关键 作用 ， 使 用 了 Feature-rich Encoder 来 尝试 抓 住 句子 Fig. 1 Example of RNN generated summary with low relevance 
的 关键 概念 和 关键 实体 。 还 提出 了 Generator-Pointer 机 制 ， 2) 命 名 实体 ”命名 实体 就 是 人 人 名、 地名、 机构 名 、 专 


使 编码 器 能 够 生成 原文 中 的 句子 。 Romain 等 人 1 提出 了 内 部 ”名词 等 具有 特定 意义 的 实体 [21。 在 摘要 任务 中 ， 命 名 实体 是 
注意 力 机 制 和 新 的 训练 方法 ， 有 效 的 提升 了 文本 摘要 生成 的 。 ”文本 信息 的 主要 载体 ， 识 别 出 文 章 中 的 命名 实体 不 仅 有 助 于 
质量 。Hu 等 人 1 构建 了 一 个 大 规模 的 中 文 语料库 ， 并 提供 。 模型 确定 代表 文章 主题 的 关键 实体 还 能 帮助 模型 处 理 OOV 
了 基线 ， 为 研究 中 文摘 要 提供 了 便利 。Ma 等 人 在 提高 抽象 ”问题 ， 因 此， 本 文 对 语料库 进行 命名 实体 识别 ， 将 命名 实体 


式 摘要 的 质量 上 做 了 很 多 尝试 ， 在 文献 由 中 提出 一 种 引入 了 Embedding 后 与 词 向 量 拼接 ， 使 词汇 的 词 向 量 拥 有 命名 实体 

相似 性 评估 组 件 的 模型 来 提高 语义 相关 性 ， 在 文献 叫 中 , 使 PR. 

用 自动 编码 器 作为 辅助 监控 器 ， 来 改进 中 文 新 闻 文 本 的 文本 3) 词 汇 位 置 ”词汇 在 文本 中 所 处 的 位 置 是 新 闻 文本 的 另 

表示 。 一 个 一 个 重要 特征 ， 新 闻 类 文章 的 第 一 句 或 第 一 段 往往 会 履 
本 文 借鉴 抽取 式 方 法 ， 研 究 了 语言 特征 对 摘要 的 影响 ， 盖 整 片 文章 的 主旨 信息 ， 距 离 文章 开始 位 置 越 近 的 词汇 越 接 

提出 了 一 种 融合 语言 特征 的 抽象 式 中 文摘 要 模型 。 使 用 引入  ” 近 文 章 的 主题 , 因此 计算 词汇 的 位 置 特征 如 式 (1) 所 示 来 提高 


注意 力 机 制 的 encoder-decoder 模型 作为 基础 框架 ,在 模型 的 摘要 的 质量 。 
输入 端 添加 了 拼接 层 ， 用 于 将 原文 词汇 的 词性 、 命 名 实体 、 Loc, =(1+n-l)/n (1) 
词汇 位 置 和 TF-IDF 等 特征 与 原始 词 向 量 融 合 在 一 起 ， 构 成 其 中 :Loc 代表 词汇 的 位 置 特征 ,代表 新 闻 文 本 中 第 i 个 词 
输入 模型 的 词 向 量 。 使 用 BiLSTM(bi-directional long — 汇 的 位 置 ，n 代表 该 新 闻 文 本 中 总 的 词汇 数目 ，Loc 的 值 越 
short-term memory) 为 编码 器 从 正 反 两 个 方向 编码 生成 中 间 大 ， 证 明 该 位 置 的 词汇 越 重 要 ,。 
语义 向 量 , 单 向 LSTM 为 解码 器 读 取 中 间 语 义 向 量 生 成 目标 4)TF-IDF 词 频 - 逆 文档 频率 (term frequency-inverse 
序列 , 模型 结合 pointer HLE, 在 每 个 解码 步 又 中 使 用 开关 函 。 document frequency， 简 称 TF-IDF) 是 一 种 统计 方法 ， 用 以 评 
数 来 决定 是 正常 预测 词 表 还 是 复制 原文 中 的 词 ， 最 终生 成 与 ” 估 一 个 特定 词语 对 于 一 个 语料库 的 其 中 一 份 文本 的 重要 程 
原文 语义 相关 度 高 的 摘要 。 度 。TF 为 词 频 ， 用 来 统计 词汇 在 该 文本 中 出 现 的 频率 。IDF 
2 ”模型 为 道 文档 频率 ,用 于 识别 某 一 词汇 在 整个 语料库 中 的 重要 性 。 
TF-IDF 为 词 频 与 逆 文 档 频 率 的 乘积 ，TF-IDF 越 大 ， 则 说 明 
2.1 基于 语言 特征 的 词汇 表示 这 个 词 对 这 篇 文章 的 区 分 度 就 越 高 。TF-IDF 的 计算 公式 如 下 


抽象 式 摘要 方法 ， 通 过 对 大 量 的 数据 进行 训练 而 预测 生 。 ”所 示 : 
成 的 新 的 摘要 句子 ， 摘 要 句子 中 会 出 现在 输入 文档 中 未 出 现 (f —idf,, =f, id Q) 
的 句子 .抽象 式 方法 考虑 了 摘要 句子 的 语法 正确 性 和 连贯 性 ， "e " 
而 忽略 了 生成 摘要 与 原文 档 的 语义 相关 性 ， 从 而 导致 生成 与 UE 
原文 无 关 的 摘要 内。 如 图 1 所 示 ，RNN 生成 的 摘要 语句 通顺 9 " 
日 与 输入 的 原文 没有 太 大 的 关联 。 为 了 解决 这 个 问题 ， 本 文 ‘Dh 

取 词 汇 的 词性 、 命 名 实体 、 词 汇 位置 和 TF-IDF 等 特征 来 ——— áo" 


抓 住 原文 本 的 关键 实体 。 本 文 认为 将 词性 、 命 名 实体 等 语言 
村 


特征 融入 词 向 量 ， 可 以 改进 模型 避免 语法 错误 并 生成 良好 的 文章 4 中 所 有 的 词汇 数目 。 在 式 (4) 中 ,，N 为 语料库 的 文档 总 
商 要 。 词 汇 的 TF-IDF 特征 值 能 够 评估 该 词汇 对 原文 的 重要 A, DR 为 语料库 中 包含 词汇 i 的 文档 数目 。 当 词汇 未 出 现在 
程度 。 除 此 之 外 ， 根 据 新 闻 的 特点 ， 将 词 在 新 闻 文 本 中 的 位 ”语料库 中 时 DE NE, 为 了 避免 分 母 为 零 ， 将 DE +1 作 为 分 母 
置 也 作为 一 项 特征 融入 到 了 词 向 量 中 。 来 计算 IDF。 


ID 词性 ”词性 是 词汇 基本 的 语法 属性 ， 决 定 了 词汇 的 语 本 文 将 词 embedding 成 原始 词 向 量 ， 在 原始 词 向 量 后 添 
义 倾 向 性 603。 提取 词性 特征 有 助 于 探究 和 识别 相 邻 词 之 间 的 “加 经 过 embedding 后 的 POS、NER 和 Los、TF-IDF 等 特征 。 
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录用 定 丰 胡 德 敏 ， 等 : 融合 
于 是 输入 编码 器 的 词汇 被 形象 的 表示 为 


f „w „pos „ner loc tf-idf 
二 (5) 


其 中 : on 代表 词汇 的 原始 词 向 量 ，ww 代表 词 的 词性 标注 的 
embedding HÆ, r| 代表 词 的 命名 实体 识别 的 embedding 向 
量 ，y* 代表 词 的 位 置 特征 ，w-% 是 词 的 TF-IDF 特征 。 拼 接 
层 将 这 五 种 向 量 拼接 起 来 作为 最 终 输入 编码 器 的 向 量 。 
2.2 LSTM 循环 神经 网 络 
基于 神经 网 络 的 seq2seq 模型 由 两 部 分 组 成 ， 编 码 器 和 
解码 器 ，LSTM 长 短期 记忆 网 络 是 一 种 特殊 的 循环 体 结构 ， 
LSTM 计算 单元 添加 了 一 种 门 机 制 来 解决 标准 RNN 模型 的 
梯度 消失 问题 。LSTM 的 计算 单元 的 结构 如 图 2 所 示 。 在 很 
多 任务 上 , 采用 LSTM 结构 的 循环 神经 网 络 比 标准 的 循环 神 
经 网 络 表现 更 好 。 本 模型 使 用 LSTM 作为 编码 器 和 解码 器 ， 


LSTM 在 t 时 刻 的 隐藏 层 状态 有 的 计算 公式 如 下 所 示 : 
fi o 
0, = " W [Ah , x] (6) 
C, | | tan h 
C =f, OC.ti Oc, (7) 
h, =0, Otanh(C,) (8) 
其 中 : LAAT Aww, om, c 更 新 候选 
HÆ, W 代表 被 学 习 的 权 值 矩阵 ，o 代表 激励 函数 ，@ 代表 
逐 点 运算 操作 。 
HE z 


— be n 


o 
NC —————» OUT 


图 2 LSTM 计算 单元 结构 图 
Fig.2 Illustration of LSTM 
2.3 融合 语言 特征 的 神经 网 络 模型 
融合 语言 特征 的 神经 网 络 模型 如 图 3 所 示 。 本 模型 在 输 
入 层 添 加 了 一 个 拼接 层 ， 用 于 将 词汇 的 原始 词 向 量 与 词性 、 
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在 每 个 时 间 步 又 中 连接 向 前 和 向 后 的 LSTM 的 隐 


(isi) o 


藏 状态 得 到 (mha) ， 其 中 态 几 包含 了 


词 向 量 正 反 两 个 方向 的 信息 。 
本 文 使 用 单 向 LSTM 作为 解码 器 ， 广 表示 解码 器 在 i 时 
刻 的 隐藏 状态 ， 如 式 (9) 所 示 。 在 每 个 解码 步骤 中 ， 引 入 了 
注意 力 机 制 使 注意 力 集中 在 输入 序列 的 某 一 个 特定 部 分 ， 内 
容 向 量 c 用 于 对 系统 所 关注 的 词 进行 编码 以 生成 下 一 个 摘要 
词 ， 如 式 C10) ~ 12) 所 示 。 


(n-[n:n], We 


m 


h,= f (ha Y6) (9) 
=a(h,h,) (10) 
exp(e;) 
Qj =5; 11 
Yep) On 
e= Xah (12) 
其 中 : e 是 输入 隐藏 状态 和 输出 隐藏 状态 及 的 注意 力 得 
分 ， 为 标准 化 后 的 注意 力 得 分 。 
模型 结合 Pointer 机 制 ,在 解码 端 使 用 了 一 个 开关 (switch) 


函数 , 决定 在 每 个 解码 步骤 是 正常 的 预测 词 表 生 成 摘要 词 y? , 
还 是 复制 原文 的 词 y? 作为 摘要 词 。 如 果 =1, 表示 开关 打开 ， 
正常 预测 词 表 。 如 果 w=0， 表 示 开 关 关 闭 ， 指 向 原文 的 一 个 
位 置 ， 将 指针 指向 的 词 作为 输出 。 开 关 打开 的 概率 的 计算 公 
式 如 下 : 


p(u, = 1) 3 o(v (Wh *W/Elo, ,]- Wc; xb) (13) 


其 中 : n ERRA, Eln] 上 一 个 时 间 步 的 词 向 量 ，c 是 
E PXHPBGE, W, W, W, pH 是 开关 的 参数 。 使 用 
文档 中 单词 的 注意 力 分 布 作为 采样 指针 的 分 布 。 


y^ (Wh, , * WjE[o;,]* Wh, +o” )) , 


p Geel 


P: =argmax( pí (D) fer j €... m] (14) 


p; (让 是 解码 的 第 i 个 时 间 步 指向 原文 位 置 j 的 概率 ，% 

是 编码 器 在 位 置 j 处 的 隐藏 状态 ， zp; 是 摘要 位 置 i 处 的 指针 
值 。 联 合式 (13) (14) 得 到 最 终 输 出 ”的 概率 为 

p(y:)= p(u 21) p(ylu =1)+p(u =0)p(yl =0) (15) 

在 训练 时 过 程 中 ， 当 摘要 中 出 现 未 登录 词 时 ， 为 模型 提 

供 显 式 的 指针 信息 ， 当 生成 摘要 的 第 i 个 位 置 的 单词 是 未 登 


命名 实体 、 词 汇 位 置 、TF-IDF 等 语言 特征 拼接 起 来 生成 最 终 
输入 模型 的 词 向 量 。 原 始 词 向 量 进 入 拼接 层 ， 拼 接 层 根据 式 
(OD 计算 该 文章 中 词汇 的 位 置信 息 ， 根 据 式 (2) 计算 该 文 
章 中 词汇 的 TF-IDF 特征 值 ， 将 每 个 词汇 的 词性 标记 和 命名 
实体 标记 映射 为 POS embedding 和 NER embedding。 将 每 个 
词汇 的 POS embedding, NER embedding. Loc, IF-IDF 与 原 
始 词 向 量 拼接 在 一 起 ， 最 终 构 成 一 个 512 维 的 向 量 


f „w „pos „ner loc ,tf -idf 
下 = 全 


编码 器 将 整个 原文 本 压缩 成 一 个 连续 的 向 量 ， 学 习 原 文 
本 的 每 个 单词 的 矢量 表示 。 本 文 使 用 Bi-LSTM 作为 编码 器 ， 
向 前 LSTM 从 左 向 右 读 取 输 入 序列 x=(%…,*) ,生成 隐藏 状 


态 序列 ( 太 … 太 ) 。 向 后 的 LSTM 反 向 读 取 输入 序列 ， 生 成 


录 词 或 命名 实体 时 w 被 设置 为 0。 优 化 似 然 函 数 如 下 所 示 : 


log p(yx) = 
X og {pb 0) plu} tlogp(pOb pl) — 09 


在 测试 时 ， 模 型 在 每 个 时 间 步 ， 根 据 估计 的 开关 函数 的 
概率 p(u) 来 决定 是 正常 的 预测 词 表 还 是 指向 原文 中 的 一 个 
位 置 。 

2.4 摘要 生成 流程 

新 闻 摘 要 的 生成 流程 如 图 4 所 示 。 

a) 读 取 新 闻 文 本 text。 

b) 预 处 理 : 为 新 闻 文 本 分 词 , 分词 后 生成 词汇 表 Vocab, 
为 Vocab 中 的 词 生 成 所 对 应 的 词性 标志 和 命名 实体 标志 。 

c) 计算 输入 序列 长 度 m=count(Vocab), 创建 输入 模型 的 
向 量 数 组 new Text. Matrix[m][]. 将 Vocab 中 的 词汇 、 词 性 标 


录用 定稿 HRE, F: 


志和 命名 实体 标志 向 量化 ， 获 得 原始 词 向 量 * 、 词 性 标志 问 
E ;一 和 命名 实体 标志 的 向 量  ， 根 据 式 (1) 计 算 词 的 位 
特征 值 x* 、 根 据 式 (2) 计 算 每 个 词 的 TF-IDF fü 777 。 
d) 拼接 语言 特征 向 量 concatenate( r", r"", 7", 7, pr) 一 
Text. Matrix[i][] 。 
e) 计算 编码 层 隐 藏 状态 h ， 根 据 式 (16) 计 算 输 出 y 的 
概率 
使 用 Beam Search 算法 select top 5 score 迭代 预测 摘要 。 
f) 输出 新 闻 摘 要 。 


图 3 融合 语言 特征 的 神经 网 络 模型 


Fig.3  Abstractive model with linguistic features 


融合 语言 特征 的 神 
经 网 络 摘要 模型 


图 4 摘要 生成 流程 氏 


Fig.4 Summarization generating process 


3 实验 


3.1 数据 集 

数据 集 的 质量 、 内 容 和 规模 都 直接 影响 摘要 的 生成 效果 ， 
LCSTS 是 当前 最 大 规模 的 中 文 数据 集 , 是 从 新 浪 微 博 上 疏 取 
过 滤 得 到 的 ， 包 含 了 超过 240 多 万 对 的 新 闻 文 本 以 及 摘要 ， 
该 数据 集 质量 高 ， 涵 盖 领 域 广 。 数 据 集 来 源 于 具有 较 大 影响 
力 的 官方 微 博 ， 例 如 , “人民 上 日报”“ 经 济 观察 报 ”“ 国 防 部 ” 
等 00， 这 些 新 闻 内 容 书写 规范 ， 语 名 通顺， 几乎 不 存在 错 别 
字 ， 非 常 适合 深度 学 习 模 型 的 研究 。LCSTS 的 训练 集 有 240 
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HEX, WERA 1 万 多 对 ， 测 试 集 有 1 千 多 对 ， 而 且 验 证 
集 和 测试 集 用 人 工 标注 了 正文 和 标题 之 间 的 相关 度 ， 并 且 从 
1-5 打分 ， 分 数 越 高 越 好 。 本 文采 用 LCSTS 中 给 出 的 数据 集 
来 训练 模型 ， 使 用 测试 集中 3 分 以 上 的 数据 来 测试 模型 。 
3.2 ANE 
本 文 首先 对 语料库 中 的 文本 进行 预 处 理 。 词 是 最 小 的 能 
够 独立 运用 的 语言 单位 ， 本 文 使 用 基于 分 词 的 词 向 量 进行 实 
验 ， 使 用 Stanford CoreNLP 工具 包 对 语 料 进行 分 词 、 词 性 标 
注 和 命名 实体 识别 。 表 1 给 出 了 一 篇 新 闻 内 容 经 过 预 处 理 的 
示例 。 统 计数 据 集 内 每 个 词汇 的 出 现 频率 ， 按 照 词 频 的 顺序 
对 单词 进行 排序 , 从 中 选取 使 用 频率 高 的 词汇 来 构建 词汇 表 ， 
词汇 表 大 小 为 50000。 词汇 表 中 的 <unk> 符 号 被 用 来 代替 测试 
数据 集中 未 出 现在 训练 词汇 表 中 的 词 。 使 用 Gensim 工具 包 ， 
对 包含 动词 、 形 容 词 、 名 词 、 代 词 等 40 种 中 文 词性 标记 进行 
embedding 处 理 生 成 POS embedding, 对 包含 有 人 名 、 机 构 名 、 
地 名 、 时 间 、 日 期 、 货 币 、 百 分 比 和 非 命 名 实体 等 8 种 类 型 
命名 实体 标记 进行 embedding 处 理 生 成 NER embedding， 使 
用 CBOW 模型 来 生成 每 个 词 所 对 应 的 原始 词 向 量 。 将 每 个 词 
的 原始 词 向 量 与 所 对 应 的 POS embedding 和 NER embedding 
一 一 对 应 。 


del 文本 预 处 理 示例 
Table ] Example of pre-process 
总 理 18 日 在 美 药 典 公司 餐厅 与 10 家 进驻 自 贸 
区 的 中 外 企业 家 座谈 ， 请 他 们 给 自 贸 区 各 项 改革 “ 打 
分 ” 他 对 10 位 参 会 企业 家 说 :“ 和 希望 我 们 在 留 有 饭菜 
余 香 中 进行 的 座谈 会 ， 不 仅 friendly( 友 好 )， 而 且 
frankly( 坦 率 )， 有 什么 问题 直 来 直 去 讲 出 来 。 
总 理 18 E 美 药典 公司 餐厅 与 10 
家 进驻 自 贸 区 的 中 外 企业 家 座谈 请 他 们 给 
贸 区 各 项 改革 打分 他 对 10 位 参 会 企业 家 
说 希望 我 们 (E 留 有 饭菜 RE 中 进行 的 座谈 
会 不 仅 friendly 友好 而 且 frankly 坦率 有 什么 
问题 直 来 直 去 讲 出 来 


nnnmqpannnpmnvnzujjnvvrvnzrvnvrp 


Zu 


新 闻 内 容 


分 词 结果 


词性 标注 结果 . 
unqvnvvrpvnnfvujncenadcenanvrnlvv 


nang Person OO 0000000000 Loction 00000 
命名 实体 识别 

结果 O OO Location O OO00000000000000 

H 


00000000000000 
3.3 评价 指标 


如 何 有 效 合理 地 评价 文本 摘要 的 生成 效果 是 一 个 很 难 的 
问题 ， 当 前 的 文本 摘要 评价 方法 分 为 两 类 ， 一 种 是 内 部 评价 
方法 ， 将 获得 的 摘要 与 参考 摘要 进行 对 比 ， 根 据 两 者 的 相似 
性 进行 评价 。 与 参考 摘要 越 吻合 ， 说 明 摘 要 的 质量 就 越 高 ; 
另 一 种 是 外 部 评价 方法 ， 将 摘要 应 用 于 特定 的 任务 ， 根 据 摘 
要 提高 这 项 任务 的 效果 来 评价 生成 文摘 的 效果 。 本 文 使 用 了 
前 流行 的 内 部 评价 方法 ROUGE. ROUGE 评价 方法 是 
Lin 等 人 03 提 出 的 一 种 自动 文本 摘要 评价 方法 。 其 通过 统计 
自动 生成 的 摘要 与 参考 摘要 之 间 的 重 县 基本 单元 的 数目 来 评 
价 文摘 的 质量 。 本文 使 用 的 参考 摘要 为 数据 集中 的 人 工 摘 要 。 
ROUGE 常用 的 评价 标准 有 ROUGE-N 和 ROUGE-L。 其 中 
ROUGE-N 表示 系统 生成 摘要 的 n-gram 召回 率 ，ROUGR-L 

表示 系统 摘要 和 参考 摘要 的 最 大 公共 序列 。ROUGE-N 
的 计算 方法 如 式 (17) 所 示 。 


25 a2 sran, es Co (Bram, ) 
Zn! uat 


下 


ROUGE-N- 


(Q7) 


Count ( gram, ) 


的 


中 词汇 的 顺序 ， 评 价 更 合理 。 本 文 使 


HRH, F: 


中 : Count, (gram,) RRRA E EU i 32 55 8 25 18 92 EUR 


的 个 数 ，R 表示 参考 摘要 。ROUGE-L 考虑 了 摘要 
JT Lin 提供 的 标准 工 


n-gram 


aet 


fa, 


本 模型 生成 的 摘要 质量 。 
3.4 


是 


D 


认 设 


为 


选用 了 ROUGE-1，ROUGE-2， 和 ROUGE-L 来 评价 


实验 设置 
本 文 使 用 TensorFlow 框架 进行 实验 , 原始 词 向 量 的 维度 
350, 经 过 拼接 层 后 输入 编码 器 的 词 向 量 的 维度 是 512, 隐 


层 的 大 小 为 S12， 批 次 大 小 为 64。 使 用 Adam 优化 器 ， 默 
JJ a=0.001, /,209, f,20999, c—-1x10* , fl 


了 得 到 最 符合 语言 模型 的 摘要 ， 本 文选 择 使 用 身 


(Beam Search) 算 法 ， 集 束 大 小 设置 为 5 来 生成 摘要 。 


3.5 实验 结果 及 分 析 


LCSTS 中 文 数据 集 来 验证 模型 的 生成 效果 ,将 


本 文 使 用 


实验 结果 分 别 与 Hu 等 人 (0 提出 的 RNN context 模型 、Gu 等 


AE 


8 提出 的 COPYNET 模型 和 Ma 等 人 00 提 出 的 SRB 模型 的 


实验 结果 进行 对 比 。 取 得 了 比 上 述 模 型 更 高 的 ROUGE 得 分 ， 
如 表 2 所 示 。 


表 2 在 lcstc 数据 集 上 的 ROUGE 得 分 表 
Table 2 ROUGE score on LCSTS dataset 


model R-1 R-2 R-L 
RNN context(W) 

26.8 16.1 24.1 

RNN context(C) 29.9 17.4 27.2 

COPYNET(W) 35.0 22.3 32.0 

COPYNET(C) 34.4 21.6 31.3 

SRB(C) 33.3 20.0 30.1 

LF model 36.2 23.6 32.9 


RNN context 模型 是 Hu 等 人 9 使 用 的 引入 上 下 文 的 摘 


要 生成 模型 .作者 对 LCSTS 数据 集 分 别 进行 词语 级 别 分 词 处 
理 和 字符 级 别 分 词 处 理 后 进行 对 比 ， 实 验 结果 显示 使 用 


字符 级 别 分 词 处 理 优 于 基于 词语 级 别 分 词 处 理 结果 。 这 


7E 


成 


HX, 


mT 


的 词 
OOV 问题 。RNN context 模型 的 结果 成 为 后 来 使 用 


根据 字符 分 词 生成 的 词典 远 远 小 于 根据 词语 分 词 4 
字符 词典 能 害 盖 更 多 的 原文 内 容 ， 有 效 减少 了 
LCSTS 


居 进 行 中 文摘 要 研究 的 基线 。 
COPYNET 模型 是 Gu 等 人 提出 的 一 种 能 够 解决 OOV 


问题 的 模型 。COPYNET 在 Seq2seq+Attention 模型 的 基础 上 
引入 了 拷贝 机 制 ， 允 许 部 分 摘要 复制 原文 中 的 内 容 。 在 基于 


分 词 表示 的 摘要 任务 上 取得 了 更 高 的 ROUGE 得 分 。 


SRB 模型 是 Ma 等 人 00 提 出 了 一 种 基于 语义 相关 性 的 神 


经 模型 ， 用 来 鼓励 文本 和 摘要 之 间 的 语义 相似 性 。SRB 在 基 


误解 句子 的 意义 。 本 文 认为 基于 词语 的 表示 可 
捉 文章 的 语义 ， 因 此 本 模型 使 用 基于 分 词 表示 的 词 向 量 输 
模型 。 H 

中 的 词汇 ， 不 仅 能 够 有 效 地 解决 OOV 问题 还 能 输出 原文 中 
的 关键 词 。 


于 字符 表示 的 摘要 任务 中 能 够 生成 与 原文 语义 相关 度 较 高 的 
摘要 ， 但 未 考虑 OOV 
ROUGE 得 分 。 


问题 获得 了 低 于 COPYNET 模型 的 


由 于 汉字 通常 有 多 重 语义 ， 使 用 基 


于 字符 的 向 量 可 能 会 
以 更 准确 的 捕 


除 此 之 外 , 本 模型 结合 Pointer 机 制 选择 性 地 输出 原文 


本 文 使 用 融合 了 词性 、 命 名 实体 、IF-IDF 值 和 Loc 等 语 


言 特征 的 LF_model 生成 的 摘要 与 未 融合 语言 特征 的 lack 


feature model 生成 的 摘要 进行 了 对 比 ， 


结果 如 表 3 所 示 。 
实验 结果 表明 ， 使 用 融合 语言 特征 的 模型 获得 了 更 高 的 


ROUGE 得 分 。 证 明了 语言 特征 对 生成 摘要 的 质量 的 影响 ， 


融合 语言 特征 的 抽象 式 中 文摘 要 模型 
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融入 词性 、 命 名 实体 、 位 置 特征 、TF-IDF 等 语言 特征 扩展 了 


词 向 量 的 维度 , 使 输入 模型 的 词 向 量 包含 了 更 多 的 语义 信息 。 
词性 信息 使 模型 关注 原文 中 动 名 词 ， 识 别 出 命 名 实体 有 助 于 
模型 输出 


位 置信 息 使 模型 关注 词汇 在 文章 中 的 位 置 对 摘要 的 影响 。 最 


OV 词 , IF-IDF 帮助 模型 识别 语 料 中 的 重要 词汇 


终生 成 更 贴近 原文 主题 的 摘要 。 


传统 的 RNN 模型 生成 的 摘要 可 读 性 差 ， 语 义 相关 性 较 低 ， 


存在 OOV 问题 。 本 模型 生成 的 摘要 抓 住 了 该 条 新 闻 的 关键 
词汇 “ 总 理 ”“ 企 业 家 和 上 自 贸 区 ”， 可 读 性 更 强 ， 并 

缓解 了 OOV 问题 。 结 果 表 明 本 文 提出 的 模型 生成 了 更 接近 
人 工 生成 的 摘要 , 生成 的 摘要 与 原文 内 容 的 语义 相关 度 较 高 。 


RI 融合 语言 特征 的 rouge 得 分 表 
Table 3 ROUGE score with linguistic features 
model R-1 R-2 R-L 
lack feature model 35.4 21.1 30.5 
LF_model 36.2 23.6 32.9 
图 5 是 使 用 本 模型 生成 的 摘要 实例 ， 通 过 观察 可 以 发 现 


A 


原文 李克强 总 理 18 日 在 美 药典 公司 餐厅 与 10 家 进驻 
企业 家 座谈 , 请 他 们 给 自 贸 区 各 项 改革 “ 打分” 
家 说 :“ 和 希望 我 们 在 留 有 饭菜 余 香 中 进 
4X. friendly (友好 ) ， 而 且 frankly (坦率 ) ， 有 
去 讲 出 来 。” 


10 企业 给 上 海 


RNN context (W): 李克强 在 每 UNK 公司 给 
什么 问题 UNK 讲 出 来 。 


Our model: 李克强 总 理 与 中 外 企业 家 座 


J5 ”本 模型 生成 的 摘要 实 作 


Fig.5 Example of summary generated by our model 
结束 语 


考虑 到 输入 模型 的 向 量 对 摘要 的 影响 ， 本 文 提出 了 一 种 


融合 语言 特征 的 神经 网 络 摘要 模型 来 解决 语义 相关 度 低 的 问 


题 


A o 


[: 


RARER, ATREA RI 


T 


融入 词 向 量 ， 使 模型 


能 够 抓 取 原 文本 中 的 关键 实体 ，pointer 机 制 用 来 解决 OOV 


问题 和 输出 关键 实体 。 在 LCATS 数据 集 


的 实验 结果 表明 ， 


本 文 提出 的 模型 不 仅 生成 高 于 基线 模型 的 ROUGE 得 分 ， 还 
能 够 抓 住 原文 本 的 关键 实体 缓解 OOV 问题 ， 生 成 与 原文 本 
语义 相关 度 较 高 的 摘要 。 
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